在本文中,我们评估了域转移对训练集外部数据外的数据的培训的人类检测模型的影响领域。具体而言,我们使用Robotti平台在农业机器人应用程序的背景下收集的现场数据集中介绍了Opendr人类,从而可以定量测量此类应用程序中域移动的影响。此外,我们通过评估有关训练数据的三种不同的情况来研究手动注释的重要性:a)仅消极样本,即没有描绘的人,b)仅阳性样本,即仅包含人类的图像,而c)既负面c)。和阳性样品。我们的结果表明,即使仅使用负样本,即使对训练过程进行了额外的考虑,也可以达到良好的性能。我们还发现,阳性样品会提高性能,尤其是在更好的本地化方面。该数据集可在https://github.com/opendr-eu/datasets上公开下载。
translated by 谷歌翻译
In the cybersecurity setting, defenders are often at the mercy of their detection technologies and subject to the information and experiences that individual analysts have. In order to give defenders an advantage, it is important to understand an attacker's motivation and their likely next best action. As a first step in modeling this behavior, we introduce a security game framework that simulates interplay between attackers and defenders in a noisy environment, focusing on the factors that drive decision making for attackers and defenders in the variants of the game with full knowledge and observability, knowledge of the parameters but no observability of the state (``partial knowledge''), and zero knowledge or observability (``zero knowledge''). We demonstrate the importance of making the right assumptions about attackers, given significant differences in outcomes. Furthermore, there is a measurable trade-off between false-positives and true-positives in terms of attacker outcomes, suggesting that a more false-positive prone environment may be acceptable under conditions where true-positives are also higher.
translated by 谷歌翻译
The deep learning community has witnessed an exponentially growing interest in self-supervised learning (SSL). However, it still remains unexplored how to build a framework for learning useful representations of raw music waveforms in a self-supervised manner. In this work, we design Music2Vec, a framework exploring different SSL algorithmic components and tricks for music audio recordings. Our model achieves comparable results to the state-of-the-art (SOTA) music SSL model Jukebox, despite being significantly smaller with less than 2% of parameters of the latter. The model will be released on Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
translated by 谷歌翻译
节奏是复杂的结构,从对立的复合物的开始一直在推动音乐,直到今天。检测此类结构对于许多MIR任务,例如音乐分析,关键检测或音乐分割至关重要。但是,自动节奏检测仍然具有挑战性,主要是因为它涉及和谐,语音领导和节奏等高级音乐元素的结合。在这项工作中,我们提出了符号分数的图表表示,作为解决节奏检测任务的中间手段。我们使用图形卷积网络将节奏检测作为不平衡的节点分类问题。我们获得了与最新技术大致相当的结果,并且我们提出了一个模型,该模型能够以多个粒度的粒度进行预测,从单个音符到节拍,这要归功于良好的注释,注释。此外,我们的实验表明,图形卷积可以学习有助于节奏检测的非本地特征,从而使我们摆脱了必须设计编码非本地环境的专业特征。我们认为,这种建模音乐得分和分类任务的一般方法具有许多潜在的优势,而不是此处介绍的具体识别任务。
translated by 谷歌翻译
作为人类已知的最直观的界面之一,自然语言有可能调解许多涉及人类计算机互动的任务,尤其是在音乐信息检索等以应用程序为中心的领域。在这项工作中,我们探索了跨模式学习,以试图在音乐领域弥合音频和语言。为此,我们提出了Muscall,这是音乐对比的音频学习框架。我们的方法由双重编码架构组成,该体系结构了解音乐音频和描述性句子对之间的对齐方式,生成可用于文本到原告和音频到文本检索的多模式嵌入。多亏了这个属性,肌肉几乎可以转移到任何可以作为基于文本检索的任务转移到任何任务。我们的实验表明,我们的方法在检索音频时的性能要比基线要好得多,该音频与文本描述匹配,相反,与音频查询匹配的文本。我们还证明,我们的模型的多模式对齐能力可以成功扩展到零摄像转移方案,用于流派分类和在两个公共数据集上自动标记。
translated by 谷歌翻译
损失级别用于解释深度学习模型的决策过程。在这项工作中,我们通过遮挡输入的一部分并将遮挡输入的性能与原始输入进行比较来评估基于损失奖的归因方法。我们观察到,在某些条件下,阻塞输入的性能比测试数据集的原始性能更好。在声音和图像识别任务中观察到类似的行为。我们探索不同的损失授予归因方法,遮挡水平和替换值,以解释遮挡下性能改善的现象。
translated by 谷歌翻译
联合学习是分布式机器学习领域中的一个新兴概念。这个概念使甘斯能够从保留隐私的同时从丰富的分布式培训数据中受益。但是,在非IID设置中,当前的联合GAN体系结构是不稳定的,努力学习独特的功能并容易崩溃。在本文中,我们提出了一种新型的体系结构多流体,以解决非IID数据集的低质量图像,模式崩溃和不稳定性的问题。我们的结果表明,与基线Flgan相比,多流通量是平均20多个客户的稳定且性能的四倍。
translated by 谷歌翻译
In natural language understanding (NLU) production systems, users' evolving needs necessitate the addition of new features over time, indexed by new symbols added to the meaning representation space. This requires additional training data and results in ever-growing datasets. We present the first systematic investigation of this incremental symbol learning scenario. Our analysis reveals a troubling quirk in building broad-coverage NLU systems: as the training dataset grows, performance on the new symbol often decreases if we do not accordingly increase its training data. This suggests that it becomes more difficult to learn new symbols with a larger training dataset. We show that this trend holds for multiple mainstream models on two common NLU tasks: intent recognition and semantic parsing. Rejecting class imbalance as the sole culprit, we reveal that the trend is closely associated with an effect we call source signal dilution, where strong lexical cues for the new symbol become diluted as the training dataset grows. Selectively dropping training examples to prevent dilution often reverses the trend, showing the over-reliance of mainstream neural NLU models on simple lexical cues. Code, models, and data are available at https://aka.ms/nlu-incremental-symbol-learning
translated by 谷歌翻译
背景:获得医疗服务在很大程度上取决于资源分配,例如医疗设施的地理分布。然而,这些数据通常仅限于国家官方文件,不可公开提供。尽管某些医疗设施的数据可以作为网络上的语义资源访问,但它的建模并不一致,并且尚未集成到完整,开放和专业的存储库中。这项工作着重于生成全球医疗设施的全面语义数据集,其中包含有关此类设施地理位置的广泛信息。结果:为此,我们收集,对齐并链接了可能存在医疗设施信息的各种开源数据库。这项工作使我们能够沿着各个方面评估每个数据源,例如完整性,正确性和与其他来源相互联系,当前知识表示技术的所有关键方面。结论:我们的贡献直接受益于生物医学和健康领域(患者,医疗保健专业人员,公司,监管机构和研究人员)的利益相关者,他们现在将更好地概述获得医疗设施的访问和分配。
translated by 谷歌翻译
二进制恒星经历各种相互作用和进化阶段,对于预测和解释观察到的特性至关重要。具有完整恒星结构和进化模拟的二元种群合成在计算上需要大量的质量转移序列。最近开发的二元种群综合代码Posydon结合了梅萨二元星模拟的网格,然后将其插值以模拟大型大型二进制文件。计算高密度直线网格的传统方法对于高维网格,不可扩展,这是一系列金属性,旋转和偏心率的范围。我们提出了一种新的活跃学习算法PSY-CRI,该算法使用数据收集过程中的机器学习来适应和迭代选择目标模拟以运行,从而导致自定义,高性能的训练集。我们在玩具问题上测试PSY-CRIS,发现所得的训练集比常规或随机采样网格所需的模拟更少以进行准确的分类和回归。我们进一步将psy-cris应用于构建Mesa模拟动态网格的目标问题,我们证明,即使没有微调,仅$ \ sim 1/4 $的模拟集也足以足以达到相同的分类精度。当针对目标应用程序优化算法参数时,我们预计将进一步增益。我们发现,仅对分类进行优化可能会导致回归中的绩效损失,反之亦然。降低产生网格的计算成本将使Posydon的未来版本涵盖更多的输入参数,同时保留插值精度。
translated by 谷歌翻译